14. Análisis de Asociación de Variables Aleatorias#
En esta sección, se presentan tests para analizar la asociación entre variables aleatorias continuas (ANOVA), o la asociación entre variables aleatorias discretas o categóricas (Chi-cuadrado, Bowker).
14.1. ¿Por qué ANOVA?#
En los test de hipótesis estudiados en sesiones anteriores, consideramos el uso de la distribución \(t\)- student para analizar las medias muestrales. En lo que sigue utilizaremos el Análisis de la Varianza (ANOVA) o también llamado análisis de factores, para estudiar el efecto de uno o más factores (cada uno con dos o más niveles) sobre la media de una variable continua.
Test de medias para dos poblaciones normales con la misma varianza desconocida (caso común)
Sean \(X_1,\cdots,X_n\) e \(Y_1,\cdots,Y_m\) muestras independientes de poblaciones normales con medias desconocidas \(\mu_x\) y \(\mu_y\) y misma varianza desconocida \(\sigma^2\). Consideremos el test de hipótesis:
del Corolario del Teo de Fisher-Cochran se cumple:
donde
de manera que se rechaza \(H_0\) si
En el caso en que se requiera comparar más de 2 grupos, o examinar el efecto de 1, 2 o mas factores, este procedimiento se vuelve ineficiente, porque no queremos hacer un montón de t-tests para cada par.
Además, family-wise error rate (la tasa de error de la familia, error global) que es la probabilidad de cometer al menos un error de Tipo I en múltiples pruebas estadísticas realizadas en los mismos datos aumenta. Para \(c\) tests se calcula como:
con c=2 tests, el error de tipo I es 0.0975 (alrededor de 2*0.05=0.1)
con c=3 tests, el error de tipo I es 0.143 (alrededor de 3*0.05=0.15)
con c=10 tests, el error de tipo I es 0.40 (alrededor de 10*0.05=0.5)
Por lo tanto, es mejor abordar con el modelo del Análisis de la Varianza (ANOVA).
14.2. Repaso#
14.2.1. La distribución chi-cuadrado#
Sean \(Z_1,\cdots, Z_n\, v.a. i.i.d. \, \sim {\it N}(0,1)\) entonces
donde \(n\) son los grados de libertad de la distribución.
Propiedades de la distribución \(\chi^2\):
(i) Propiedad aditiva: si \(X_1\) y \(X_2\) son dos v.a. independientes distribuidas \(\chi^2\) de \(n_1\) y \(n_2\) grados de libertad, entonces
(ii) Esperanza y Varianza:
14.2.2. La distribución F#
Sean \(X \sim \chi_n^2\) e \(Y \sim \chi_m^2\) dos v.a. independientes \(\chi^2\) de grados de libertad \(n\) y \(m\) respectivamente, entoncese se define:
donde \(F_{n,m}\) es la distribución \(F\) de \(n\) y \(m\) grados de libertad. También se nota \(F(n,m)\).
suppressMessages(library(dplyr))
suppressMessages(library(plotly))
suppressMessages(library(ggplot2))
suppressMessages(library(rmarkdown))
vec <- seq(0,5,by=0.01)
params <- seq(1,20,by=1)
pvec <- list()
for (i in 1:length(params))
for (j in 1:length(params)){
k = length(params)*(i-1) + j
pvec[[k]] <- df(vec,df1=params[i],df2=params[j],ncp=0)
}
steps1 <- list()
steps2 <- list()
fig <- plot_ly(width=600,height=600) %>% layout(title = "\n \n Densidad de Probabilidad F(n, m)",
yaxis = list(range=c(0,1)))
for (i in 1:length(params)){
for (j in 1:length(params)){
k = length(params)*(i-1) + j
fig <- add_lines(fig, x=vec, y=pvec[[k]],
visible=if ((i==1) && (j==1)) TRUE else FALSE,
mode='lines', line=list(color='blue'), showlegend=FALSE)
steps2[[j]] = list(args = list('visible', rep(FALSE, length(params)*length(params))),
label=params[j], method='restyle')
steps2[[j]]$args[[2]][k] = TRUE
steps1[[i]] = list(args = list('visible', rep(FALSE, length(params)*length(params))),
label=params[i], method='restyle')
steps1[[i]]$args[[2]][k] = TRUE
}
}
fig <- fig %>% layout(sliders =
list( list(active=0, currentvalue = list(prefix = "df1 (n): "), pad = list(t=20), steps=steps1),
list(active=0, currentvalue = list(prefix = "df2 (m): "), pad = list(t=100), steps=steps2)))
fig